Regressão Linear

Prof. Letícia Raposo

UNIRIO

Introdução

Técnica estatística utilizada para modelar a relação entre uma variável dependente (resposta) e uma ou mais variáveis independentes (explicativas).
Ajuda a entender a influência das variáveis independentes na variável dependente.
Permite fazer previsões com base nas relações identificadas.

Variáveis

Variáveis independentes: são as variáveis explicativas ou preditoras que são usadas para prever ou explicar a variação na variável dependente. Elas são representadas por \(x₁, x₂, x₃, ..., x_n\) e podem ser contínuas ou categóricas.
Variável dependente: também chamada de variável resposta, é aquela que estamos interessados em prever ou explicar com base nas variáveis independentes. Ela é representada por \(y\).

Regressão Linear Simples

Na regressão linear simples, temos uma única variável independente para prever a variável dependente.

\[Y = β₀ + β₁X + ε\]

\(Y\): Variável dependente (variável resposta).
\(X\): Variável independente (variável explicativa).
\(β₀\): Intercepto (valor esperado de Y quando X = 0).
\(β₁\): Coeficiente de regressão (mudança esperada em Y para cada aumento de uma unidade em X).
\(ε\): Termo de erro (captura a aleatoriedade do processo).

Exemplo

Vamos considerar um exemplo prático usando um conjunto de dados fictícios que relaciona o tempo de estudo de alunos ao desempenho em uma prova.
Nosso objetivo é entender como o tempo de estudo afeta o desempenho dos alunos.

Gráfico de Dispersão

Antes de ajustar o modelo de regressão, vamos visualizar os dados por meio de um gráfico de dispersão.

Ajuste do Modelo de Regressão Linear

Precisamos agora buscar o melhor modelo que se ajuste aos dados.
A ideia é encontrar a reta que melhor se ajusta aos pontos dispersos no gráfico de dispersão dos dados. Essa reta é chamada de “linha de regressão” ou “linha de melhor ajuste”.

Ajuste do Modelo de Regressão Linear

O objetivo do ajuste do modelo de regressão linear é encontrar os melhores valores para os coeficientes \(β₀\) e \(β₁\) que minimizem a soma dos quadrados dos resíduos.

\[Soma \;dos \;quadrados \;dos \;resíduos = Σ(yᵢ - ŷᵢ)²\]

\(yᵢ\) representa o valor observado da variável dependente (desempenho) para cada ponto.
\(ŷᵢ\) é o valor previsto da variável dependente (desempenho) calculado pela fórmula da regressão linear.

Ajuste do Modelo de Regressão Linear

O método dos mínimos quadrados encontra os valores de \(β₀\) e \(β₁\) que minimizam a soma dos quadrados dos resíduos, ou seja, a diferença entre os valores observados e os valores previstos.
Uma vez que os coeficientes são estimados, podemos usar o modelo ajustado para fazer previsões para novos valores de X (tempo de estudo) e obter o valor previsto correspondente de Y (desempenho).

Ajuste do Modelo de Regressão Linear

Vamos ajustar o modelo de regressão linear aos dados para analisar a relação entre o tempo de estudo e o desempenho dos alunos.

# Ajuste do modelo
modelo <- lm(desempenho ~ tempo_estudo)
# Resumo do modelo
summary(modelo)


Call:
lm(formula = desempenho ~ tempo_estudo)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3612 -0.9210 -0.0296  0.8956  3.3300 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.12119    0.34519   6.145 1.72e-08 ***
tempo_estudo  0.48564    0.05704   8.514 2.01e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.456 on 98 degrees of freedom
Multiple R-squared:  0.4252,    Adjusted R-squared:  0.4193 
F-statistic: 72.48 on 1 and 98 DF,  p-value: 2.009e-13

Interpretando a saída do modelo

Esses valores fornecem informações sobre a distribuição dos resíduos do modelo. É importante verificar se os resíduos estão distribuídos de forma simétrica em torno de zero e se não há padrões discerníveis.

Interpretando a saída do modelo

Estimate: Estimativa dos coeficientes do modelo.
Std. Error: Erro padrão das estimativas dos coeficientes.
t value: Estatística t associada ao teste de hipótese para os coeficientes.
Pr(>|t|): Valor p associado ao teste de hipótese para os coeficientes. Indicam se os coeficientes são estatisticamente significativos.

Interpretando a saída do modelo

Residual standard error: Erro padrão dos resíduos - estimativa do desvio padrão dos resíduos do modelo.
Multiple R-squared: Coeficiente de determinação (R²) - indica a proporção da variabilidade total dos valores observados que é explicada pelo modelo. Quanto mais próximo de 1, melhor o ajuste do modelo aos dados.
Adjusted R-squared: R² ajustado - versão ajustada do R² que leva em consideração o número de variáveis independentes no modelo. É útil ao comparar modelos com diferentes números de variáveis independentes.
F-statistic: Estatística F - avalia a significância global do modelo, testando se pelo menos uma das variáveis independentes tem um efeito significativo no resultado.

Resultados do Modelo

O modelo de regressão linear resultante é:

\[Desempenho = 2.7416 + 0.4985 * Tempo \;de \;Estudo\]

Intercepto (\(β₀\)): Quando o tempo de estudo é zero, espera-se que o desempenho seja de 2.7416.
Coeficiente de regressão (\(β₁\)): A cada aumento de uma unidade no tempo de estudo, espera-se um aumento de 0.4985 no desempenho dos alunos.

Avaliação de pressupostos

A avaliação dos pressupostos do modelo de regressão linear é uma etapa importante para garantir a validade e a confiabilidade dos resultados obtidos.

Linearidade

O modelo pressupõe uma relação linear entre as variáveis independentes e a variável dependente.

Linearidade

library(performance)
check_model(modelo, check = "linearity") # Se a linha horizontal não for aproximadamente horizontal → violação.

Homocedasticidade

Esse pressuposto significa que a variância dos erros é constante em todas as faixas dos valores das variáveis independentes.
É importante verificar se não há um padrão sistemático de aumento ou diminuição da variância ao longo da linha de regressão.

Homocedasticidade

library(performance)
check_model(modelo, check = "homogeneity") # Linha horizontal precisa ser aproximadamente constante

check_heteroscedasticity(modelo)

OK: Error variance appears to be homoscedastic (p = 0.882).

Independência dos erros

library(performance)
check_autocorrelation(modelo)

OK: Residuals appear to be independent and not autocorrelated (p = 0.762).

Se os resíduos forem independentes, esperamos que eles sejam distribuídos aleatoriamente em torno de zero, sem qualquer padrão discernível.

Normalidade dos erros

O pressuposto é de que os erros devem seguir uma distribuição normal com média zero. Isso pode ser avaliado por meio do gráfico de normalidade dos resíduos e também por meio de testes estatísticos, como o teste de Shapiro-Wilk.

Normalidade dos erros

library(performance)
check_model(modelo, check = "normality")

check_normality(modelo)

OK: residuals appear as normally distributed (p = 0.670).

Regressão Linear Múltipla

Extensão da regressão linear simples para incluir múltiplas variáveis independentes.

\[y = β0 + β1x1 + β2x2 + ... + βkxk + ε\]

Regressão Linear Múltipla

Cálculo dos coeficientes de regressão múltipla por meio do método dos mínimos quadrados.
- Estimativa dos coeficientes \(β0, β1, β2, ..., βk\) que minimizam a soma dos quadrados dos resíduos.
Interpretação dos coeficientes de regressão múltipla.
- O coeficiente \(βj\) representa a mudança esperada em y para uma mudança unitária em \(xj\), mantendo as outras variáveis constantes.

Vantagens da regressão linear múltipla

Permite levar em consideração múltiplas variáveis independentes e seus efeitos sobre a variável dependente.
Fornece uma visão mais abrangente da relação entre as variáveis.

Seleção de Variáveis na Regressão Linear

Stepwise: seleção progressiva (forward) e regressiva (backward) de variáveis com base em critérios de inclusão e exclusão.
Forward: adição iterativa de variáveis ao modelo com base em critérios de melhoria do ajuste.
Backward: remoção iterativa de variáveis do modelo com base em critérios de melhoria do ajuste.

Critérios de seleção de variáveis na Regressão Linear

Valor-p: avaliação da significância estatística das variáveis independentes.
AIC (Akaike Information Criterion): avalia o equilíbrio entre qualidade do ajuste e complexidade do modelo; valores menores indicam modelos preferíveis.
BIC (Bayesian Information Criterion): critério análogo ao AIC, com penalização mais forte para modelos complexos, favorecendo soluções mais parcimoniosas.

Multicolinearidade e Seleção de Variáveis

Multicolinearidade: ocorre quando variáveis independentes são altamente correlacionadas, dificultando a interpretação dos coeficientes.
Diagnóstico:
- Matriz de correlação: identifica correlações elevadas entre preditores.
- VIF (Variance Inflation Factor): quantifica a inflação da variância; valores acima de 5–10 indicam possível multicolinearidade.

📚 Referências bibliográficas

BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.
DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.
HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.